在学习在模拟环境中执行电机任务时,必须允许神经网络探索其动作空间以发现新的潜在可行的解决方案。但是,在具有物理硬件的在线学习场景中,此探索必须受相关的安全考虑因素限制,以避免损坏代理的硬件和环境。我们的目标是通过培训一个神经网络来解决这个问题,我们将参考“安全网络”,以估算受控自主动态系统的吸引力(ROA)。因此,这种安全网络可以用于量化所提出的控制动作的相对安全性,并防止选择破坏性动作。在这里,我们通过培训人工神经网络(ANN)来表示我们的安全网络的发展,以代表几种自主动态系统基准问题的ROA。对该网络的培训是基于Lyapunov理论和神经解的局部微分方程(PDE)的神经解。通过学习近似包含感兴趣系统动态的特殊选择的PDE的粘度解决方案,安全网络学习近似特定函数,类似于Lyapunov函数,其零电平集是ROA的边界。我们培训我们的安全网络,以便在物理信息通知神经网络(PINN)方法的修改版本之后以半监督方式解决这些PDE,利用损失函数,以惩罚与PDE的初始和边界条件的分歧,以及非零残差和变分术语。在未来的工作中,我们打算在电机学习任务期间将这种技术应用于加强学习代理。
translated by 谷歌翻译